Supercalculateur Jean Zay, nommé ainsi en l'honneur du ministre de l'Éducation nationale qui fut l'artisan, avec Jean Perrin, de la création du CNRS. Capable d'effectuer 13,9 millions de milliards d'opérations par seconde dans sa configuration initiale installée à l'été 2019, ce supercalculateur convergé permet d'étendre les modes d'utilisation classiques du calcul de haute performance (HPC) à de nouveaux usages pour l'intelligence artificielle (IA). En plus de ses 1 528 noeuds de 40 coeurs Intel Cascade Lake à 2,5 GHz, il comprend 261 noeuds "convergés hybrides accélérés" composés chacun de 40 coeurs à 2,5 GHz et de 4 GPUs NVIDIA V100. Chaque noeud dispose de 192 Go de mémoire et chaque GPU de 32 Go. Conçu par Hewlett Packard Enterprise, ce supercalculateur HPE SGI 8600 a été acquis en 2019 par le Genci (Grand équipement national de calcul intensif) et est opéré par l'IDRIS, localisé sur le plateau de Saclay. UPS851 Institut du Développement et des Ressources en Informatique Scientifique 20190051_0007© Cyril Fresillon/IDRIS/CNRS Photothèque

Le supercalculateur Jean Zay grimpe à 125,9 PFlop/s, avec 1 456 GPU H100

Alors qu’on connait déjà la réponse : 42 !

Avatar de l'auteur
Sébastien Gavois

Publié dans

HardwareSciences et espace

28/03/2024 6 minutes
18

Supercalculateur Jean Zay, nommé ainsi en l'honneur du ministre de l'Éducation nationale qui fut l'artisan, avec Jean Perrin, de la création du CNRS. Capable d'effectuer 13,9 millions de milliards d'opérations par seconde dans sa configuration initiale installée à l'été 2019, ce supercalculateur convergé permet d'étendre les modes d'utilisation classiques du calcul de haute performance (HPC) à de nouveaux usages pour l'intelligence artificielle (IA). En plus de ses 1 528 noeuds de 40 coeurs Intel Cascade Lake à 2,5 GHz, il comprend 261 noeuds "convergés hybrides accélérés" composés chacun de 40 coeurs à 2,5 GHz et de 4 GPUs NVIDIA V100. Chaque noeud dispose de 192 Go de mémoire et chaque GPU de 32 Go. Conçu par Hewlett Packard Enterprise, ce supercalculateur HPE SGI 8600 a été acquis en 2019 par le Genci (Grand équipement national de calcul intensif) et est opéré par l'IDRIS, localisé sur le plateau de Saclay. UPS851 Institut du Développement et des Ressources en Informatique Scientifique 20190051_0007© Cyril Fresillon/IDRIS/CNRS Photothèque

Comme prévu, le supercalculateur Jean Zay gagne en puissance. D'ici quelques semaines, il va passer à 125,9 PFlop/s avec l’ajout de 14 racks de calcul BullSequana XH3000 d’Eviden, pour un total de 728 CPU Intel Sapphire Rapids et 1 456 GPU NVIDIA H100. On en profite pour détailler la configuration complète de Jean Zay.

Le supercalculateur Jean Zay a été acheté par le ministère de l'Enseignement supérieur, de la Recherche et de l'Innovation via le GENCI (Grand équipement national de calcul intensif). Le contrat a été signé avec Hewlett-Packard Enterprise le 8 janvier 2019. Il est installé à l'IDRIS, le centre national de calcul du CNRS sur le plateau de Saclay. Il a depuis été amélioré à plusieurs reprises.

16PFlop/s au lancement, puis 28 et 36,85 PFlop/s

À son lancement au premier semestre 2019, il avait une puissance crête de 15,9 PFlop/s. Une première extension a été mise en place durant l’été 2021 pour passer 28 PFlop/s et une seconde en juin 2022 pour atteindre 36,85 petaflops. Au classement des 500 plus gros supercalculateurs, il est 167e avec une puissance de 4,48 petaflops mais cela ne concerne qu'une seule des « partitions » du supercalculateur (il était au classement de juin 2019).

L’année dernière à VivaTech, Emmanuel Macron annonçait « investir 50 millions pour quadrupler les capacités du supercalculateur Jean Zay ». De son côté, la Direction générale des entreprises (DGE) annonçait dans un rapport de 2023 « la multiplication par 10 des capacités du supercalculateur Jean Zay, pouvant entraîner à terme 4 à 5 grands modèles de langage par an ». Dans les deux cas, aucune précision n’était apporté sur la méthode de calcul.

Le GENCI rappelle que pour cette amélioration du supercalculateur, 40 millions d’euros lui ont été attribués. « Cette subvention exceptionnelle s’accompagne également de 10 millions d’euros pour renforcer et prolonger les ressources humaines du Programme national de recherche en intelligence artificielle (PNRIA) et accompagner les communautés IA ».

Quoi qu’il en soit, les travaux ont commencé au début de l’année, mais les chercheurs ont été prévenus au dernier moment. La communauté scientifique a ainsi « été prise de court par cette opération qui rend caduc le travail de planification à long terme en cours », regrettait Julie Deshayes, directrice de recherche du CNRS et chercheuse en océanographie physique.

Et jusqu’à 126 PFlop/s maintenant

La suite est réservée à nos abonnés.

Déjà abonné ? Se connecter

Abonnez-vous

Écrit par Sébastien Gavois

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

16PFlop/s au lancement, puis 28 et 36,85 PFlop/s

Et jusqu’à 126 PFlop/s maintenant

1 456 GPU H100 débarquent

Le détail des 416 GPU A100 et des 1 832 V100

Les autres partitions, l’incidence des travaux de février

Nouvelle interface de stockage

next n'a pas de brief le week-end

Le Brief ne travaille pas le week-end.
C'est dur, mais c'est comme ça.
Allez donc dans une forêt lointaine,
Éloignez-vous de ce clavier pour une fois !

Fermer

Commentaires (18)


YES!!! C'est la fête!! Bon, j'aurais préféré 3000, c'est sur :transpi: Mais c'est bien plus que ce à quoi je m'attendais. ça va faire du bien. :best::merci:
Je me rends compte que je manque de connaissances sur le sujet.

Qu'est-ce qu'une partition ?
Quelle est l'architecture matérielle et logicielle d'un tel calculateur ?

Je ne sais pas si ça a fait l'objet d'articles sur NXI ou IH, mai il n'y a pas de liens vers des articles qui expliquent ça.
Une partition c’est un peu comme dans un gateau, un groupe d’éléments CPU et/ou GPU accessibles aux chercheurs/utilisateurs. On peut ajouter des partitions, en enlever, en faire évoluer, etc.
Pour l’infra logicielle, Idris donne des détails par ici (en fin de page) : http://www.idris.fr/jean-zay/cpu/jean-zay-cpu-hw.html#gpu_p13

Sébastien Gavois

Une partition c’est un peu comme dans un gateau, un groupe d’éléments CPU et/ou GPU accessibles aux chercheurs/utilisateurs. On peut ajouter des partitions, en enlever, en faire évoluer, etc.
Pour l’infra logicielle, Idris donne des détails par ici (en fin de page) : http://www.idris.fr/jean-zay/cpu/jean-zay-cpu-hw.html#gpu_p13
Will It Blend? :francais:

benbart34

Will It Blend? :francais:
Rhooo ! Ici, je n'ai pas osé la faire !

fred42

Rhooo ! Ici, je n'ai pas osé la faire !
C'est vraiment des belles machines, de l'artisanat moderne, j'oserai pas pour vrai ! :chinois:
Une partition, c'est un ensemble de noeuds homogènes. Quand on installe différentes tranches successivement, ce sont des partitions. Quand on installe une partie avec des GPU et une partie sans GPU, ce sont deux partitions.
Et la raison d'être des partitions logiques est d'obtenir in fine une homogénéité des ressources/capacités de traitement & stockage.

Les chercheurs font des calculs spécialisés et cherchent à maximiser la parallélisation des traitements exécutés sur une grappe de calculs via différents cadres d'application (MPI, OpenMP, OpenCL, quand je trainais encore mes savates dans le monde académique).
Contrairement à une grappe dans une entité plus lambda qui peut se permettre cette hétérogénéité, ici elle risquerait de provoquer un goulot d'étranglement : dans un schéma classique de parallélisation (map) vient toujours une étape d'aggrégation (reduce). Si cette étape attend après des nœuds moins performants, c'est la capacité de traitement globale qui s'effondre, car c'est la vitesse de calcul du nœud le moins performant qui sera limitante.

Cela permet donc de faire évoluer une grappe sur le temps long, en tolérant son hétérogénéité, et permet aussi à des traitements tolérant cette hétérogénéité de théoriquement bénéficier d'une capacité de calcul maximum augmentée.
Cependant, en réalité, chaque évolution crée donc une partition de capacité de calcul généralement unitairement plus grande qu'aucune autre, qui sera bien souvent unitairement utilisée.
Modifié le 29/03/2024 à 16h41

Historique des modifications :

Posté le 29/03/2024 à 16h38


Et la raison d'être des partitions logiques est d'obtenir in fine une homogénéité des ressources/capacités de traitement & stockage.

Les chercheurs font des calculs spécialisés et cherchent à maximiser la parallélisation des traitements exécutés sur une grappe de calculs via différents cadres d'application (MPI, OpenMP, OpenCL, quand je trainais encore mes savates dans le monde académique).
Contrairement à une grappe dans une entité plus lambda qui peut se permettre cette hétérogénéité, ici elle risquerait de provoquer un goulot d'étranglement : dans un schéma classique de parallélisation (map) vient toujours une étape d'aggrégation (reduce). Si cette étape attend après des nœuds moins performants, c'est la capacité de traitement globale qui s'effondre, car c'est la vitesse de calcul du nœud le moins performant qui sera limitante.

Cela permet donc de faire évoluer une grappe sur le temps long, en tolérant son hétérogénéité, et permet aussi à des traitements tolérant cette hétérogénéité de théoriquement bénéficier d'une capacité de calcul maximum augmentée, mais en réalité, chaque évolution crée donc une partition de capacité de calcul généralement unitairement plus grande qu'aucune autre.

Posté le 29/03/2024 à 16h40


Et la raison d'être des partitions logiques est d'obtenir in fine une homogénéité des ressources/capacités de traitement & stockage.

Les chercheurs font des calculs spécialisés et cherchent à maximiser la parallélisation des traitements exécutés sur une grappe de calculs via différents cadres d'application (MPI, OpenMP, OpenCL, quand je trainais encore mes savates dans le monde académique).
Contrairement à une grappe dans une entité plus lambda qui peut se permettre cette hétérogénéité, ici elle risquerait de provoquer un goulot d'étranglement : dans un schéma classique de parallélisation (map) vient toujours une étape d'aggrégation (reduce). Si cette étape attend après des nœuds moins performants, c'est la capacité de traitement globale qui s'effondre, car c'est la vitesse de calcul du nœud le moins performant qui sera limitante.

Cela permet donc de faire évoluer une grappe sur le temps long, en tolérant son hétérogénéité, et permet aussi à des traitements tolérant cette hétérogénéité de théoriquement bénéficier d'une capacité de calcul maximum augmentée.
Cependant, en réalité, chaque évolution crée donc une partition de capacité de calcul généralement unitairement plus grande qu'aucune autre.

Est-ce que ça peut faire tourner Crysis ?
Est-ce que ça fait tourner DOOM ?

Gilbert_Gosseyn

Est-ce que ça fait tourner DOOM ?
en general, il n'y a pas de sortie video (dvi, hdmi) sur ces cartes graphiques... donc tu dois pouvoir jouer au premier doom avec le chipset intégré de la CM mais pas beaucoup plus :D

elldekaa

en general, il n'y a pas de sortie video (dvi, hdmi) sur ces cartes graphiques... donc tu dois pouvoir jouer au premier doom avec le chipset intégré de la CM mais pas beaucoup plus :D
Avec les nœuds de visualisation + un client VNC, ça doit se faire. :fumer:
"Jean Zay Rien" :francais:

ok je sors ---> []
En réponse au sous-titre : oui mais encore faudrait-il connaitre la question.
Peut importe la question, la réponse est 42 :smack:

the_Grim_Reaper

Peut importe la question, la réponse est 42 :smack:
Et comme vu passer il y a quelques jours, 42 c'est le code ASCII pour le caractère * ça tombe plutôt bien...
Selon le dernier classement du Top 500 des supercalculateurs, Jean Zay pourrait prétendre à entrer dans le Top 10.


En pratique c'est plus compliqué que ça parce que le Top 500 ne permet pas de mélanger CPU et GPU et qu'il est de toute façon très difficile de faire tourner le bench de façon efficace sur des partitions non homogènes.
Et ce bousin va servir à héberger une IA générative d’impôts nouveaux ?